草庐IT

php - PHP 网页抓取

全部标签

ruby - Ruby 中可用的网页抓取 gem /工具

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭9年前。Improvethisquestion我正尝试在我正在处理的Ruby脚本中抓取网页。该项目的目的是展示哪些ETF和股票共同基金最符合值(value)投资理念。我想抓取的一些页面示例是:http://finance.yahoo.com/q/pr?s=SPY+Profilehttp://finance.yahoo.com/q/hl?s=SPY+Holdingshttp://www.marketwatch.com/tools/mut

ruby - 如何在 selenium-webdriver 中获取网页的当前 URL

我正在使用seleniumwebdriver在浏览器上做一些自动化。现在需要获取当前在浏览器中打开的页面的当前url。我写了下面的代码但是给我错误:element=driver.find_element:name=>"btnSearch"element.clickall_table_data=driver.find_elements(:tag_name,"td")all_table_data.eachdo|td|putstd.textendprintdriver.get_url但它给我一个错误:filedownload.rb:30:in`':undefinedmethod`get_ur

ruby - 使用 Ruby 获取网页的所有链接

我正在尝试使用Ruby检索网页的每个外部链接。我将String.scan与此正则表达式一起使用:/href="https?:[^"]*|href='https?:[^']*/i然后,我可以使用gsub删除href部分:str.gsub(/href=['"]/)这工作正常,但我不确定它在性能方面是否有效。这可以使用还是我应该使用更具体的解析器(例如nokogiri)?哪种方式更好?谢谢! 最佳答案 使用正则表达式对于快速而肮脏的脚本来说很好,但Nokogiri使用起来非常简单:require'nokogiri'require'open

ruby - 如何使用 watir 滚动网页

我正在尝试滚动网页以查找并单击滚动页面时延迟加载的内容。我正在使用以下命令require'watir-webdriver'@browser=Watir::new:firefox@browser.send_keys:space我在firefox上使用网络驱动程序,我在ubuntu上,但它不工作。在下面的ruby​​代码中,我试图向下滚动页面,直到找不到带有:id的元素。该元素正在延迟加载。几秒钟后我超时了,不知道下面的代码有什么问题。When/^deal(\d+)isloaded$/do|id|(0..5).eachdo|click|@browser.send_keys:spaceend

php - Ruby 和 PHP HMAC 不一致

我尝试在Ruby中创建一个HMAC,然后在PHP中验证它。ruby:require'openssl'message="A522EBF2-5083-484D-99D9-AA97CE49FC6C,1234567890,/api/comic/aWh62,GET"key="3D2143BD-6F86-449F-992C-65ADC97B968B"hash=OpenSSL::HMAC.hexdigest('sha256',message,key)phashPHP:对于Ruby,我得到:20e3f261b762e8371decdf6f42a5892b530254e666508e885c708c5b

php - Facebook 扼杀了公共(public) RSS 提要;如何获取带有新时间线的 Facebook 页面 RSS?

我正在尝试从Facebook提取一个页面提要到RSS,但是每次我尝试尝试时,我都会在XML中返回一个错误,内容如下:">https://www.facebook.com/profile.php?id=</a>]]>我使用的网址是:https://www.facebook.com/feeds/page.php?id=&format=rss20&access_token=我没有设置年龄限制,也没有国家/地区限制:此外,我已经尝试过使用和不使用访问token。如以下评论所述,JSONURL确实有效:https://graph.facebook.com//feed&

ruby - 使用 Ruby 获取网页内容——我遇到了麻烦

我想从这个*页面中获取内容。我查找的所有内容都提供了解析CSS元素的解决方案;但是,那个页面没有。这是我发现的唯一看起来应该有效的代码:file=File.open('http://hiscore.runescape.com/index_lite.ws?player=zezima',"r")contents=file.readputscontents错误:tracker.rb:1:in'initialize':Invalidargument-http://hiscore.runescape.com/index_lite.ws?player=zezima(Errno::EINVAL)fr

ruby-on-rails - var_dump 并像 php 一样死去,在 ruby​​ on rails 中(在 ruby​​ on rails 中调试)

这可能是重复的问题。但是我无法显示对象。我是ruby​​的新手,尝试过像var_dump和print_r这样的调试,然后在php中die/p>这是我的代码。@brand_id=Brand.maximum("brand_id")我试过下面的方法1putsYAML::dump(@brand_id)2logger.debug{@brand_id.inspect}请问谁能帮我解决一下吗? 最佳答案 Rails只会将View输出到浏览器。任何其他输出都发送到服务器上的STD_OUT。从View中调试很简单:但是从Controller或模型内部

ruby-on-rails - 我的抓取 "stack"应该如何处理 404 错误?

我有一个rake任务,负责对数百万个URL进行批处理。因为这个过程需要很长时间,我有时会发现我尝试处理的URL不再有效——404、站点已关闭等等。当我最初写这篇文章时,基本上只有一个站点在处理过程中会不断崩溃,所以我的解决方案是使用open-uri,挽救产生的任何异常,稍等片刻,然后重试.这在数据集较小时效果很好,但现在时间过去了很多,我发现URL不再存在并产生404。使用404的情况,当这种情况发生时,我的脚本会停在那里并无限循环——显然很糟糕。我应该如何处理页面未成功加载的情况,更重要的是,这如何适应我构建的“堆栈”?我对这个和Rails很陌生,所以欢迎就我在这个设计中可能出错的地

ruby - 加载网页时 : "undefined method ` request_uri' for #"

我正在尝试使用Ruby通过HTTP加载网页并检查其状态代码是什么。我的代码如下所示:require"net/http"@r=Net::HTTP.get_response(URI.parse(myURL))return@r.code但是,对于某些URL(主要是指向奇怪的东西,例如不会给出正确响应的Web计数器),我得到了一个undefinedmethodrequest_urifor#异常。我已经将它追溯到http.rb的第380行(我正在运行Ruby1.8),它说:defHTTP.get_response(uri_or_host,path=nil,port=nil,&block)ifpa